導讀:搜索引擎蜘蛛,在搜索引擎系統中又被稱(chēng)之為“蜘蛛”或“機器人”,是用來(lái)爬行和訪(fǎng)問(wèn)頁(yè)面的程序。今天,小小課堂網(wǎng)為大家帶來(lái)的是《搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的》教程。希
發(fā)表日期:2019-09-22
文章編輯:興田科技
瀏覽次數:8797
標簽:
搜索引擎蜘蛛,在搜索引擎系統中又被稱(chēng)之為“蜘蛛”或“機器人”,是用來(lái)爬行和訪(fǎng)問(wèn)頁(yè)面的程序。
今天,小小課堂網(wǎng)為大家帶來(lái)的是《搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的》教程。希望對大家有所幫助。
一、搜索引擎蜘蛛簡(jiǎn)介
搜索引擎蜘蛛,在搜索引擎系統中又被稱(chēng)之為“蜘蛛”或“機器人”,是用來(lái)爬行和訪(fǎng)問(wèn)頁(yè)面的程序。
① 爬行原理
搜索引擎蜘蛛訪(fǎng)問(wèn)網(wǎng)頁(yè)的過(guò)程,就好比用戶(hù)使用的瀏覽器。
搜索引擎蜘蛛向頁(yè)面發(fā)出訪(fǎng)問(wèn)請求,該頁(yè)面的服務(wù)器則返回該頁(yè)面的HTML代碼。
搜索引擎蜘蛛將收到的HTML代碼存入搜索引擎的原始頁(yè)面數據庫中。
② 如何爬行
為了提高搜索引擎蜘蛛的工作效率,通常采用多個(gè)蜘蛛并發(fā)分布爬行。
同時(shí),分布爬行還分為兩種模式:深度優(yōu)先和廣度優(yōu)先。
深度優(yōu)先:沿著(zhù)發(fā)現的鏈接一直爬行,直到?jīng)]有任何鏈接。
廣度優(yōu)先:先這一頁(yè)面上的所有鏈接爬行完畢之后,才會(huì )沿著(zhù)第二層頁(yè)面繼續這樣爬行。
③ 蜘蛛必遵守的協(xié)議
搜索引擎蜘蛛在訪(fǎng)問(wèn)網(wǎng)站之前,都會(huì )先訪(fǎng)問(wèn)網(wǎng)站根目錄下的robots.txt文件。
搜索引擎蜘蛛不會(huì )去抓取robots.txt文件中禁止爬行的文件或目錄。
④ 常見(jiàn)搜索引擎蜘蛛
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot,YodaoBot
搜狗蜘蛛:Sogou News Spider
必應蜘蛛:bingbot
Alexa蜘蛛:ia_archiver
二、如何吸引更多搜索引擎蜘蛛
互聯(lián)網(wǎng)信息爆炸,搜索引擎蜘蛛不可能將所有網(wǎng)站的所有鏈接全部爬行到,那么如何吸引更多的搜索引擎蜘蛛到我們網(wǎng)站上來(lái)爬行變得非常重要。
① 導入鏈接
無(wú)論是外部鏈接,還是內部鏈接,只有有導入,才能被搜索引擎蜘蛛知道該頁(yè)面的存在。所以,多多做外鏈建設有助于吸引更多蜘蛛來(lái)訪(fǎng)。
② 頁(yè)面更新頻率
頁(yè)面更新頻率越高,搜索引擎蜘蛛來(lái)訪(fǎng)的次數也會(huì )越多。
③ 網(wǎng)站和頁(yè)面權重
整個(gè)網(wǎng)站的權重以及某一頁(yè)面的權重(包括首頁(yè)也是頁(yè)面)影響著(zhù)蜘蛛的來(lái)訪(fǎng)頻率,權重高、權威性強的網(wǎng)站一般都會(huì )增加搜索引擎蜘蛛的好感。
④ 與首頁(yè)的距離
首頁(yè)>一級目錄>二級目錄>三級目錄>四級目錄…很顯然,目錄越深蜘蛛來(lái)訪(fǎng)的幾率和次數就會(huì )越少,因為一般外鏈都是指向首頁(yè)的,首頁(yè)再向下爬行,只會(huì )越來(lái)越少。
這里給大家的建議是,做外鏈的時(shí)候,不要只做首頁(yè)外鏈,偶爾做一做欄目和聚合頁(yè)面的外鏈也還是不錯的哦~
有些時(shí)候,URL短,蜘蛛可能也會(huì )覺(jué)得這個(gè)鏈接的權重哦,所以,最好只做一級欄目,然后就是文章頁(yè)面。
三、搜索引擎蜘蛛地址庫
搜索引擎蜘蛛有一個(gè)專(zhuān)門(mén)的地址庫,用來(lái)存放已經(jīng)被發(fā)現的URL(已被抓取和未被抓取的都算,只要是被發(fā)現的URL都算),這樣就不會(huì )出現重復爬行和抓取頁(yè)面的情況了。
① 地址庫URL來(lái)源
蜘蛛抓取的頁(yè)面中發(fā)現的新的URL;
站長(cháng)后臺自主提交的URL;
站長(cháng)后臺提交的XML地圖中的URL;
站長(cháng)后臺提交的網(wǎng)站URL;
② 對于未被抓取的URL
對于未被抓取的URL,不管是以什么方式獲取的,哪怕是搜索引擎蜘蛛自己發(fā)現的,也會(huì )先放入地址庫中,然后在做統一抓取。
四、頁(yè)面數據存儲
搜索引擎蜘蛛將抓取的頁(yè)面數據會(huì )存入搜索引擎的原始頁(yè)面數據庫中,其實(shí),就可以理解為快照中看到的頁(yè)面數據,和用戶(hù)看到的是一樣的,每一個(gè)頁(yè)面的URL地址都有一個(gè)唯一的編號。
五、復制內容檢測
搜索引擎蜘蛛在爬行的過(guò)程中,會(huì )進(jìn)行一定程度的復制內容檢測。如果是權重低的網(wǎng)站上,發(fā)現了大量的轉載或抄襲內容時(shí),可能會(huì )停止爬行,這些頁(yè)面可能也會(huì )不抓取與收錄。
但并不是說(shuō)網(wǎng)站就不能轉載,像一些權重很高的平臺,哪怕是轉載了一篇舊聞排名也可以很好,因為搜索引擎蜘蛛可能會(huì )覺(jué)得,就算是舊聞可能也是高質(zhì)量的吧。
以上就是小小課堂網(wǎng)為大家帶來(lái)的是《搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的》教程。感謝您的觀(guān)看。
喜歡記得,點(diǎn)贊,打賞哦。小小課堂網(wǎng),每天一個(gè)SEO原創(chuàng )視頻和圖文教程,別忘了關(guān)注哦。
更多seo教程搜索小小課堂。文章來(lái)源:https://www.xxkt.org/sogouseo
本文來(lái)源:A5上一篇:
掌握這些技巧讓您的企業(yè)站勝人一籌更多新聞
2022
網(wǎng)絡(luò )營(yíng)銷(xiāo)是目前較為有效的營(yíng)銷(xiāo)手段。網(wǎng)站優(yōu)化和SEO使用許多方法。SEO是近年來(lái)興起的一種特殊的網(wǎng)絡(luò )營(yíng)...
View details
2022
在以流量為王的互聯(lián)網(wǎng)大環(huán)境下,很多人都開(kāi)始慢慢了解并且去學(xué)習網(wǎng)站優(yōu)化SEO,但是很多人都覺(jué)得網(wǎng)站優(yōu)化...
View details
2022
網(wǎng)站SEO優(yōu)化并不是一兩天就能成功的,需要長(cháng)時(shí)間的積累和耐心。今天網(wǎng)建科技分享有關(guān)404頁(yè)面的建立。...
View details
2022
鄭州有很多本地化的服務(wù)行業(yè),比如:公司注冊、搬家公司、清潔公司、裝修公司等等基本上都只做本地的市場(chǎng)或...
View details